Valeurs propres : taux de variance expliquée
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 2.8318031 5.8995899 5.89959
## Dim.2 2.4107997 5.0224993 10.92209
## Dim.3 2.1168191 4.4100398 15.33213
## Dim.4 1.8428800 3.8393334 19.17146
## Dim.5 1.5465704 3.2220218 22.39348
## Dim.6 1.4763508 3.0757309 25.46922
## Dim.7 1.3999709 2.9166060 28.38582
## Dim.8 1.2722051 2.6504272 31.03625
## Dim.9 1.2347797 2.5724576 33.60871
## Dim.10 1.2039431 2.5082149 36.11692
## Dim.11 1.1592730 2.4151521 38.53207
## Dim.12 1.1230870 2.3397645 40.87184
## Dim.13 1.1085641 2.3095085 43.18135
## Dim.14 1.1025450 2.2969687 45.47831
## Dim.15 1.0693100 2.2277292 47.70604
## Dim.16 1.0599462 2.2082212 49.91426
## Dim.17 1.0504675 2.1884740 52.10274
## Dim.18 1.0296682 2.1451420 54.24788
## Dim.19 1.0140789 2.1126645 56.36055
## Dim.20 1.0072009 2.0983352 58.45888
## Dim.21 1.0030758 2.0897412 60.54862
## Dim.22 0.9984332 2.0800693 62.62869
## Dim.23 0.9807890 2.0433105 64.67200
## Dim.24 0.9760774 2.0334945 66.70550
## Dim.25 0.9682207 2.0171266 68.72262
## Dim.26 0.9666530 2.0138605 70.73648
## Dim.27 0.9576742 1.9951545 72.73164
## Dim.28 0.9457964 1.9704092 74.70205
## Dim.29 0.9073833 1.8903819 76.59243
## Dim.30 0.8791143 1.8314882 78.42392
## Dim.31 0.8761747 1.8253640 80.24928
## Dim.32 0.8544501 1.7801043 82.02939
## Dim.33 0.8265264 1.7219301 83.75132
## Dim.34 0.8251695 1.7191032 85.47042
## Dim.35 0.8084379 1.6842456 87.15466
## Dim.36 0.7858194 1.6371238 88.79179
## Dim.37 0.6988735 1.4559864 90.24777
## Dim.38 0.6834648 1.4238850 91.67166
## Dim.39 0.6770451 1.4105106 93.08217
## Dim.40 0.6435722 1.3407754 94.42295
## Dim.41 0.6164499 1.2842706 95.70722
## Dim.42 0.5403384 1.1257050 96.83292
## Dim.43 0.5042751 1.0505731 97.88349
## Dim.44 0.3422151 0.7129482 98.59644
## Dim.45 0.2432022 0.5066713 99.10311
## Dim.46 0.1692188 0.3525391 99.45565
## Dim.47 0.1560020 0.3250041 99.78066
## Dim.48 0.1052847 0.2193432 100.00000
2 clusters obtenus par k-means (pour vérifier que l’on n’a pas de clusters aberrant (ex : “Pas de réponse”))
## 1 2
## 3559 3169
Avant : A chaque fois un groupe de ~380 individus se démarque -> “Pas de réponse”
-> depend pas du temps
Pourcentage de variance expliquée par les différentes dimensions :
plus forcément très pertinent à analyser avec la décomposition de certaines variables en binaires
plus forcément très pertinent à analyser avec la décomposition de certaines variables en binaires
-> plus forcément très pertinent à analyser avec la décomposition de certaines variables en binaires
Les individus se différencient ils selon le territoire (sur les deux
premières dimensions) ?
Pas vraiment
Dendogramme : Plutôt deux clusters, mais le CAH sépare mal les deux clusters sur les deux premières dimensions
## 1 2
## 3559 3169
## [1] "cout_total_TTC"
## [1] "Groupe 1 : "
## [1] 6181.235
## [1] "Groupe 2 : "
## [1] 5458.448
## [1] "montant_aide"
## [1] "Groupe 1 : "
## [1] 1311.045
## [1] "Groupe 2 : "
## [1] 1263.694
## [1] "Nb.pers.ménage"
## [1] "Groupe 1 : "
## [1] 2.729418
## [1] "Groupe 2 : "
## [1] 2.584727
Séparation entre usage fort, granulés, poêle / foyer fermé, moins riches, plus majorés, plus employés, un peu plus de rurales Vs usage appoint, bûches, foyer ouvert / fermé, plus riches; moins majorés, plus cadres, un peu plus d’urbains
Retraités entre deux
Distance intra et inter clusters :
## c1 c2
## [1,] 9.245428 9.337198
## c1 c2
## c1 0.000000 9.727077
## c2 9.727077 0.000000
Récupération des délimitaions des communes et des territoires :
Carto avec un gradient de couleur selon le taux d’indivdus du groupe 2 par commune :
Carto intéractive :
Odds-ratios :
L’odds ratio est le rapport de la cote qu’un évenement (ici être dans le groupe 2) arrive à un groupe d’individus A par rapport à celle d’un groupe B.
Le kisks ratio est la même chose mais avec les probabilités à la place des cotes. Un log(odds ratio) :
< 0 signifie que l’événement “être dans le groupe 2” est moins fréquent dans ce groupe par rapport à l’ensemble des autres, signifatif si la borne sup l’est aussi.
= 0 signifie que l’événement est aussi fréquent dans les deux groupes.
‘>’ 0 signifie que l’événement “être dans le groupe 2” est plus fréquent dans ce groupe par rapport à l’ensemble des autres, signifatif si la borne inf l’est aussi.
On ne peut pas calculer l’OR pour les communes peu dense et très peu dense car elles sont trop peu nombreuses.
Pareil pour le risque ratio.
Risk ratio :
Grands intervalles de confiance : La où il y a de petits effectifs
Jaune = groupe 2 : résultats signficatifs : log(bornes 2.5 %) > 0 <=> bornes 2.5% >1 Bleu = groupe 1 : résultats signficatifs : log(bornes 97.5 %) < <=> bornes 97.5 % <1
Globalement, les modalités amenant le plus à être dans le groupe 2 sont : Chauffage principal dans l’usage de l’ancien et du nouvel appareil, une fréquence d’utilisatrion “tous les jours”, et avoir un nouveau poêle au granulés.
Celles amenant le plus à ne pas être dans le groupe 2, dont à être dans le groupe 1 sont : Les usages plaisir/a gréments et d’appoint pour les nouveaux et anciens appareils. Avoir un ancien appareil de type “foyer ouvert”, et avoir un revenu supérieur à 100 000€ par an
Calcul du modèle prédisant le cluster :
Différents indicateurs :
Les OR sont absurdes
Essaie régression logistique en sélectionnant les variables
## 1 2 3
## 1349 2891 2488
## [1] "cout_total_TTC"
## [1] "Groupe 1 : "
## [1] 5835.734
## [1] "Groupe 2 : "
## [1] 6155.875
## [1] "Groupe 3 : "
## [1] 5477.41
## [1] "montant_aide"
## [1] "Groupe 1 : "
## [1] 1317.49
## [1] "Groupe 2 : "
## [1] 1303.467
## [1] "Groupe 3 : "
## [1] 1256.045
## [1] "Nb.pers.ménage"
## [1] "Groupe 1 : "
## [1] 2.861379
## [1] "Groupe 2 : "
## [1] 2.687997
## [1] "Groupe 3 : "
## [1] 2.521704
Distance intra et inter clusters :
## c1 c2 c3
## [1,] 10.8025 8.696508 8.705175
## c1 c2 c3
## c1 0.00000 10.450064 10.538827
## c2 10.45006 0.000000 9.162383
## c3 10.53883 9.162383 0.000000
Pas forcément pertinent, un groupe plus “Pas de réponse”, séparation selon le stockage.
## 1 2 3 4
## 2828 1067 2451 382
## [1] "Groupe 1 : "
## [1] 6156.095
## [1] "Groupe 2 : "
## [1] 5893.531
## [1] "Groupe 3 : "
## [1] 5486.901
## [1] "Groupe 4 : "
## [1] 5629.864
## [1] "Groupe 1 : "
## [1] 1303.085
## [1] "Groupe 2 : "
## [1] 1321.715
## [1] "Groupe 3 : "
## [1] 1257.217
## [1] "Groupe 4 : "
## [1] 1292.732
## [1] "Groupe 1 : "
## [1] 2.684583
## [1] "Groupe 2 : "
## [1] 2.773196
## [1] "Groupe 3 : "
## [1] 2.543452
## [1] "Groupe 4 : "
## [1] 2.931937
Distance intra et inter clusters :
## c1 c2 c3 c4
## [1,] 8.629166 9.768217 8.682072 11.77189
## c1 c2 c3 c4
## c1 0.000000 9.936123 9.121836 11.70603
## c2 9.936123 0.000000 10.049701 12.16068
## c3 9.121836 10.049701 0.000000 11.79744
## c4 11.706027 12.160677 11.797439 0.00000
Pas forcément pertinent, un groupe “Pas de réponse”, séparation aussi selon le stockage
Pas fou, pas fou
Correspondances entre les groupes des 4 clustering :
## grp3
## grp 1 2 3
## 1 782 2772 5
## 2 567 119 2483
## grp4
## grp 1 2 3 4
## 1 2712 625 5 217
## 2 116 442 2446 165
## grp5
## grp 1 2 3 4 5 6
## 1 610 211 222 439 1972 105
## 2 960 159 164 299 7 1580
## grp4
## grp3 1 2 3 4
## 1 2 1052 6 289
## 2 2823 11 4 53
## 3 3 4 2441 40
## grp5
## grp3 1 2 3 4 5 6
## 1 3 277 359 666 25 19
## 2 637 52 13 57 1954 178
## 3 930 41 14 15 0 1488
## grp5
## grp4 1 2 3 4 5 6
## 1 637 0 10 50 1956 175
## 2 5 0 358 668 23 13
## 3 926 2 13 13 0 1497
## 4 2 368 5 7 0 0
Proportion d’inertie expliqué selon le nb de groupes
-> Pas de coude, difficile de faire un choix.
Critère de Calinski et Harabasz : prends en compte la taille de l’échantillon, le nombre de cluster, et les sommes des carrés des distances intra et inter clusters : critère à maximiser
Clairement 2 clusters
Le taux de demandeurs du groupe 1 augmente depuis 2022.
Le taux de demandeurs du groupe 1 augmente depuis 2022 dans tous les territoires. Le taux du groupe 2 (plus consommateurs) est plus fort dans le Pays Voironnais, alors que c’est celui du groupe 1 à Grenoble Métropole. C’est plus mitigé dans le Grésivaudan.
Aussi, c’est dans le pays voironnais qu’on observe le plus grand taux de non admissions à un cluster : les individus qu’on n’a pas exploités car ils présentaient des données manquantes ou des “Pas de réponses”, et en particulier en 2020.
On a choisi de séparer les individus en deux groupes :
Globalement le groupe 1 est caractérisé par un usage d’appoint et de plaisir de leurs appareils, un ancien appareil de type foyer ouvert ou fermé, l’utilisation principalement de la bûche, les bénéficiaires de ce groupe semblent avoir des revenus plus importants, et a des taux plus forts de bénéficiaires cadres et de bénéficiaires vivant dans des communes urbaines denses que le groupe 2.
Les individus du groupe 2 eux, ont une utilisation plus importante de leurs appareils, donc utilisent souvent leurs appareils et comme chauffage principal, se chauffent un peu plus aux granulés qu’à la bûche, ont principalement des poêles, ont des revenus moins importants et donc plus de primes majorées. Dans ce groupe, il y a un taux plus importants de bénéficiares employés et de bénéficiaires ouvriers, ainsi que de bénéficiaires vivant dans des communes rurales que dans le groupe 1.
Le taux de demandeurs du groupe 1 semble augmenter depuis 2022.
Nous n’obtenons pas de résultats pertinents en séparant les individus selon leur type de combustible.